# python数据基础第七节：对重复值得处理，缺失值的处理
"""
    数据处理：pandas
    数据计算：NumPy
    数据可视化：matplotlib
"""
# 导出数据的模块在DataFrame模块下
from pandas import DataFrame,read_csv

csv_data =read_csv("E:\Python\pyspark_demo01\out_data\out_data.csv")
# 对文件相同的行进行处理(将行相同的数据去除，只会保留一行数据)
new_csv = csv_data.drop_duplicates()


# 对缺失值得处理
df2 = read_csv("E:\\Python\\pyspark_demo01\\out_data\\out_data1.csv")

# 方法一：删除缺失值得数据（dropno()），会将没有数据的值进行删除
new_df2 = df2.dropna()

# 方法二：对缺失值进行补全（）

# 去除空格（strip()）
df = read_csv("E:\\Python\\pyspark_demo01\\out_data\\out_data3.csv")
new_name = df["name"].str.strip()
df["name"] = new_name